数据检索:CNKI不是你想爱就能爱
CNKI(英文全称为 China national knowledge infrastructure,中文名称为中文知识基础设施工程),是目前国内最大的学术数据库,囊括了我国90%以上的学术信息资源,也是国内高校使用率最高的数据库之一。其收录的文献主要是是中文文献,为利用该数据库提供了便利,但是CNKI在检索技术方面还是有其独到之处,会影响文献的查准率和查全率。今天以CNKI期刊论文数据库为例向大家介绍其主要检索技巧。
1
模糊检索与精确检索的区别
在CNKI系列数据库中检索时都提供模糊检索和精确检索两种匹配模式,且系统默认的是精确匹配模式。那么两种检索模式具体有何种区别呢?
在讲匹配模式之前,我们先简单说一下数据库对文献的索引方式,事实上,数据库在存储文献时,会对其含有的关键词进行分词,然后将有意义的词组建立索引。
我们举个简单的例子,比如“企业知识管理”,这组词汇会被切分成“企业”、“知识”、“管理” 三个词组并分别建立索引。
同样,在检索的时候,如果我们输入知识管理,没有其他限定的话,系统会自动将知识管理拆分成知识和管理然后进行知识and管理的运算。
(1)模糊匹配,其基本含义为只要检索的字段记录中含有输入的检索词就为命中记录,而不管检索词被拆分后的两个(或多个)词的先后顺利和相对距离(位置),所以检索数量要比精确匹配模式多,目的是为了提高查全率。
如我们在篇名字段进行检索,当我们输入“信息管理”时,其含义是只要论文题名中含有“信息”和“管理”这两个词就属于命中记录。所以检索出来的结果可能是“信息管理方法”……“信息处理和管理技巧”……“管理信息的价值”……“信息可视化方法与管理技巧”……具体检索结果见图1所示。
图1“信息管理”的模糊检索结果
通过图1可知用“信息管理”进行模糊检索得到的检索结果为63568条记录。
(2)精确匹配,其基本含义为检索出来的结果必须含有与输入的检索词完全一样的记录才算命中记录,要求检索词的顺序不能颠倒,检索词不能拆分,也就是检索词之间的相对顺序和距离都要固定,所以检索数量要比模糊匹配少,目的是为了提高查准率。
我们仍在篇名字段进行精确模式检索,当我们输入“信息管理”时,其含义是只有论文题名中含有“信息管理”这两个词在一起并且顺序不能颠倒,“信息”和“管理”中间不能插入别的词的记录才算命中记录。具体检索结果见图2所示。
图2“信息管理”进行精确检索结果
通过图2可知用“信息管理”进行精确检索得到的检索结果仅为19819条记录,其数量不到模糊检索数量的三分之一,但其查准率则大大提高。
所以,要根据你的检索目的来决定使用何种检索匹配模式,如果为了提高查全率则选择模糊匹配方式,而为了提高查准率则选择精确匹配模式。
2
主题、篇名、关键词和摘要的关系
CNKI提供了作者、作者单位、主题、篇名、关键词、摘要、参考文献、DOI、中图分类号等多个检索字段。其中最让小伙伴们感到疑惑的是主题、篇名、关键词、和摘要之间的关系。
主题(Topic):是指论文所表现的中心思想,泛指主要内容(一般通过论文的题目、关键词和摘要所含的词汇来体现)。
篇名(Title):是指论文的题目。
关键词(Keywords):是指论文中作者给定的论文的关键词。
摘要(Abstract):是指论文中作者给定的论文的摘要。
从外延来看,主题最大。在CNKI检索中实践中,实际上主题检索得到的结果(约)=篇名+关键词+摘要的检索结果之和。
以“数据清洗”为例进行精确检索,用主题字段进行检索得到的结果为1231条记录;分别选择篇名、关键词和摘要字段,其结果分别为151,1151和489条记录,可见三者任何单独检索的记录数都比主题检索的记录数少,其结果如下图3、图4、图5和图6所示。
关键词+摘要+篇名的记录数为1791,表面比单独的主题记录数要大,这是因为三者检索到的结果有重复记录,对这1791条记录进行下载去掉重复数据后,剩下的记录数为1227条(见图7所示),与主题字段检索到的结果1231条记录大体相当。
图3主题检索结果(1231条记录)
图4篇名检索的结果(151条记录)
图5关键词检索的记录数(1151条)
图6摘要检索的记录数量(489条)
图7 数据去重结果
综上所述,单独使用其中一个字段进行检索时,主题检索的数量最大,一般情况下题名检索的结果最少。
因此,为了提高查全率,可以使用主题检索字段进行检索,为了满足较高的查准率可单独使用篇名检索字段。
国外的数据库,有的不提供“主题”这个检索字段,提供“篇名+关键词+摘要三者联合检索”这一字段,如图8所示Science Direct数据库提供的检索字段。
图8 Science Direct数据库提供的检索字段
3
主题、篇名、关键词、摘要的分词技术
在CNKI数据库中,对主题、篇名、关键词、摘要字段的分词技术采用了最大匹配方法。最大匹配算法主要包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。 其主要原理都是切分出单字串,然后和词库进行比对,如果是一个词就记录下来, 否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止,如果该单字串无法切分,则作为未登录处理。
这种算法,可能会改变我们对检索结果的认识,比如大家想一想同样选择篇名字段,都采用精确检索模式,分别检索“图书馆”和“图书”,哪个检索结果会更多呢?可能很多的小伙伴会选择后者,事实上,前者的结果更多。而选择主题、关键词、摘要字段会出现类似的结果,见图9、图10所示。
图9 “图书馆”作为检索词的检索结果237628条记录
图 10“图书”作为检索词的检索结果仅有55749条记录
这种检索结果提醒我们在进行检索时,检索结果不能根据检索词就想当然认为检索结果一定会多或者会少。
4
检索结果排序的意义
CNKI提供了主题排序、发表时间、被引、下载四种排序方式,系统默认的是主题排序。见图11所示,其各自功能如下:
图10 检索结果排序方法
(1)主题排序:把检索结果按照与输入的检索词的相关度进行排序,可以找到与关键词最相关的论文,但检索结果已经打乱了时间顺序(这一点需要注意,有些小伙伴在写论文参考资料时,往往都是过时的资料,可能就是由此引起,他只下载了比较靠前的论文,而没有考虑论文的发表时间)。
(2)发表时间:按照论文的发表时间进行降序排列,主要功能是找到含有检索关键词的最新论文。
(3)被引:按照论文的被引用率进行降序排列,可以快速找到本领域的重要经典文献。
(4)下载:按照论文的下载量进行降序排列,可以发现近期人们研究的热点。
▷参考资料:
[1]陈兰杰等.数字信息检索与数据分析,河北大学出版社,2016
[2]陈兰杰等.信息检索理论与方法,中国水利水电出版社,2011
▷作者简介:
陈兰杰,博士后,河北大学管理学院副教授,数据分析师,保定市信息资源管理研究中心主任。河北省首批青年拔尖人才,河北省三三三人才工程二层次人才,河北省宣传文化系统“四个一批”人才。
转自学术中国(ID:xueshuzhongguo)
广东知网投稿邮箱:gd_market@cnki.net
推荐阅读: